Wang Haihua
🍈 🍉🍊 🍋 🍌
多元回归分析是研究随机变量之间相关关系的一种统计方法。通过对变量实际观测的分析、计算,建立一个变量与另一组变量的定量关系即回归方程,经统计检验认为回归效果显著后,可用于预测与控制。
设随机变量 $y$ 与变量 $x_{1}, x_{2}, \cdots, x_{m}$ 有关, 则其 $m$ 元线性回归模型为 $$ y=\beta_{0}+\beta_{1} x_{1}+\cdots+\beta_{m} x_{m}+\varepsilon, $$ 式中, $\varepsilon$ 是随机误差服从正态分布 $N\left(0, \sigma^{2}\right), \beta_{0}, \beta_{1}, \cdots, \beta_{m}$ 为回归系数。 回归分析的主要步㵵是:
对 $y$ 及 $x_{1}, x_{2}, \cdots, x_{m}$ 作 $n$ 次 抽样得到 $n$ 组数据 $\left(y_{i}, x_{i 1}, \cdots, x_{i m}\right)$, $i=1, \cdots, n, n>m$ 。代入式有 $$ y_{i}=\beta_{0}+\beta_{1} x_{i 1}+\cdots+\beta_{m} x_{i m}+\varepsilon_{i}, $$ 式中, $\varepsilon_{i}(i=1,2, \cdots, n)$ 是服从正态分布 $N\left(0, \sigma^{2}\right)$ 的 $n$ 个相互独立同分布的随机变量。
记 $$ X=\left[\begin{array}{ccccc} 1 & x_{11} & x_{12} & \cdots & x_{1 m} \\ 1 & x_{21} & x_{22} & \cdots & x_{2 m} \\ \vdots & \vdots & \vdots & & \vdots \\ 1 & x_{n 1} & x_{n 2} & \cdots & x_{n m} \end{array}\right], \quad Y=\left[\begin{array}{c} y_{1} \\ y_{2} \\ \vdots \\ y_{n} \end{array}\right], $$ $$ \varepsilon=\left[\begin{array}{llll} \varepsilon_{1} & \varepsilon_{2} & \cdots & \varepsilon_{n} \end{array}\right]^{T}, \quad \beta=\left[\begin{array}{llll} \beta_{0} & \beta_{1} & \cdots & \beta_{m} \end{array}\right]^{T} . $$ 上式可以表示为 $$ \left\{\begin{array}{l} Y=X \beta+\varepsilon \\ \varepsilon \sim N\left(0, \sigma^{2} E_{n}\right) \end{array}\right. $$ 其中 $E_{n}$ 为 $n$ 阶单位矩阵。
模型中的参数 $\beta_{0}, \beta_{1}, \cdots, \beta_{m}$ 用最小二乘法估计, 即应选取估计值 $b_{j}$, 使当 $\beta_{j}=b_{j}, j=0,1,2, \cdots, m$ 时, 误差平方和 $$ Q=\sum_{i=1}^{n} \varepsilon_{i}^{2}=\sum_{i=1}^{n}\left(y_{i}-\beta_{0}-\beta_{1} x_{i 1}-\cdots-\beta_{m} x_{i m}\right)^{2} $$ 达到最小。为此, 令 $\frac{\partial Q}{\partial \beta_{j}}=0, j=0,1,2, \cdots, m$. $$ \text { 得 }\left\{\begin{array}{l} \frac{\partial Q}{\partial \beta_{0}}=-2 \sum_{i=1}^{n}\left(y_{i}-\beta_{0}-\beta_{1} x_{i 1}-\cdots-\beta_{m} x_{i m}\right)=0, \\ \frac{\partial Q}{\partial \beta_{j}}=-2 \sum_{i=1}^{n}\left(y_{i}-\beta_{0}-\beta_{1} x_{i 1}-\cdots-\beta_{m} x_{i m}\right) x_{i j}=0, \quad j=1,2, \cdots, m . \end{array}\right. $$
经整理化为以下正规方程组 $$ \left\{\begin{array}{c} \beta_{0} n+\beta_{1} \sum_{i=1}^{n} x_{i 1}+\beta_{2} \sum_{i=1}^{n} x_{i 2}+\cdots+\beta_{m} \sum_{i=1}^{n} x_{i m}=\sum_{i=1}^{n} y_{i} \\ \beta_{0} \sum_{i=1}^{n} x_{i 1}+\beta_{1} \sum_{i=1}^{n} x_{i 1}^{2}+\beta_{2} \sum_{i=1}^{n} x_{i 1} x_{i 2}+\cdots+\beta_{m} \sum_{i=1}^{n} x_{i 1} x_{i m}=\sum_{i=1}^{n} x_{i 1} y_{i} \\ \vdots \\ \beta_{0} \sum_{i=1}^{n} x_{i m}+\beta_{1} \sum_{i=1}^{n} x_{i 1} x_{i m}+\beta_{2} \sum_{i=1}^{n} x_{i 2} x_{i m}+\cdots+\beta_{m} \sum_{i=1}^{n} x_{i m}^{2}=\sum_{i=1}^{n} x_{i m} y_{i} \end{array}\right. $$ 正规方程组的矩阵形式为 $$ X^{T} X \beta=X^{T} Y, $$
当矩阵 $X$ 列满秩时, $X^{T} X$ 为可逆方阵, 解为 $$ \hat{\boldsymbol{\beta}}=\left(X^{T} X\right)^{-1} X^{T} Y . $$ 将 $\hat{\beta}=\left[b_{0}, b_{1}, \cdots, b_{m} \mid\right.$ 代入, 得到 $y$ 的估计值 $$ \hat{y}=b_{0}+b_{1} x_{1}+\cdots+b_{m} x_{m} . $$ 而这组数据的拟合值为 $\hat{Y}=X \hat{\boldsymbol{\beta}}$, 拟合误差 $e=Y-\hat{Y}$ 称为残差, 可作为随 机误差 $\varepsilon$ 的估计, 而 $$ \operatorname{SSE}=\sum_{i=1}^{n} e_{i}^{2}=\sum_{i=1}^{n}\left(y_{i}-\hat{y}_{i}\right)^{2} $$ 为残差平方和 (或剩余平方和)。
前面是在假定随机变量 $y$ 与变量 $x_{1}, x_{2}, \cdots, x_{m}$ 具有线性关系的条件下建 立线性回归方程的, 但变量 $y$ 与变量 $x_{1}, x_{2}, \cdots, x_{m}$ 是否为线性关系? 所有的变 量 $x_{1}, x_{2}, \cdots, x_{m}$ 对变量 $y$ 是否都有影响?需要做统计检验。 对总平方和 $S S T=\sum_{i=1}^{n}\left(y_{i}-\bar{y}\right)^{2}$ 进行分解, 有 $$ S S T=S S E+S S R, $$
其中SSE 是由差平方和, 反映随机误差对 $y$ 的影响; $S S R=\sum_{i=1}^{n}\left(\hat{y}_{i}-\bar{y}\right)^{2}$ 称为回归平方和, 反映自变量对 $y$ 的影响, 这里 $\bar{y}=\frac{1}{n} \sum_{i=1}^{n} y_{i}$ $\hat{y}_{i}=b_{0}+b_{1} x_{i 1}+\cdots+b_{m} x_{i m}$ 。 上面的分解中利用了正规方程组, 其中 $S S T$ 的自 由度 $d f_{T}=n-1, S S E$ 的自由度 $d f_{E}=n-m-1, S S R$ 的自由度 $d f_{R}=m$ 。
因变量 $y$ 与自变量 $x_{1}, \cdots, x_{m}$ 之间是否存在线性关系是需要检验的, 显然, 如果所有的 $\left|\hat{\beta}_{j}\right|(j=1, \cdots, m)$ 都很小, $y$ 与 $x_{1}, \cdots, x_{m}$ 的 线性关系就不明显, 所以可令原假设为 $$ H_{0}: \beta_{1}=\beta_{2}=\cdots=\beta_{m}=0 . $$ 当 $H_{0}$ 成立时SSR, SSE 满足 $$ F=\frac{S S R / m}{S S E /(n-m-1)} \sim F(m, n-m-1) . $$
在显著性水平 $\alpha$, 有上 $\alpha$ 分位数 $F_{\alpha}(m, n-m-1)$, 若 $F>F_{\alpha}(m, n-m-1)$, 回归方程效果显著; 若 $F<F_{\alpha}(m, n-m-1)$, 回归方程效果不显著。 注: $y$ 与 $x_{1}, \cdots, x_{m}$ 的线性关系不明显时, 可能存在非线性关系, 如 平方关系。
当上面的 $H_{0}$ 被拒绝时, $\beta_{j}$ 不全为零, 但是不排除其中若干个等于零。 所以应进一步作如下 $m+1$ 个检验 $(j=0,1, \cdots, m)$ : $$ H_{0}^{(j)}: \beta_{j}=0 \quad(j=0,1, \cdots, m) . $$ 当 $H_{0}^{(j)}$ 为真时, 统计量 $$ t_{j}=\frac{b_{j} / \sqrt{c_{j j}}}{\sqrt{S S E /(n-m-1)}} \sim t(n-m-1) $$ 其中 $c_{j j}$ 是 $\left(X^{T} X\right)^{-1}$ 中的第 $(j, j)$ 元素。
对给定的 $\alpha$, 若 $\left|t_{j}\right|>t_{\frac{\alpha}{2}}(n-m-1)(j=1,2, \cdots, m)$, 拒绝 $H_{0}^{(j)}, x_{j}$ 的作用显 著; 否则, 接受 $H_{0}^{(j)}, x_{j}$ 的作用不显著, 去掉变量 $x_{j}$ 重新建立回归方程。 还有一些衡量 $y$ 与 $x_{1}, \cdots, x_{m}$ 相关程度的指标, 如用回归平方和在总平方 和中的比值定义复判定系数 $$ R^{2}=\frac{S S R}{S S T} . $$ $R=\sqrt{R^{2}}$ 称为复相关系数, $R$ 越大, $y$ 与 $x_{1}, \cdots, x_{m}$ 相关关系越密切, 通常, $R$ 大于 $0.8$ (或 0.9)才认为相关关系成立。
对于给定的 $x_{1}^{(0)}, x_{2}^{(0)}, \cdots, x_{m}^{(0)}$, 代入回归方程, 得到 $$ \hat{y}_{0}=b_{0}+b_{1} x_{1}^{(0)}+b_{2} x_{2}^{(0)}+\cdots+b_{m} x_{m}^{(0)}, $$ 用 $\hat{y}_{0}$ 作为 $y$ 在点 $x_{1}^{(0)}, x_{2}^{(0)}, \cdots, x_{m}^{(0)}$ 的预测值。 也可以进行区间估计, 记 $s=\sqrt{\frac{S S E}{n-m-1}}, x_{0}=\left[1, x_{1}^{(0)}, x_{2}^{(0)}, \cdots, x_{m}^{(0)}\right]$, 则 $y_{0}$ 的 置信度为 $1-\alpha$ 的预测区间为 $$ \left(\hat{y}_{0}-t_{1-\alpha / 2}(n-m-1) s \sqrt{1+x_{0}^{T}\left(X^{T} X\right)^{-1} x_{0}}, \hat{y}_{0}+t_{1-\alpha / 2}(n-m-1) s \sqrt{1+x_{0}^{T}\left(X^{T} X\right)^{-1} x_{0}}\right) . $$ 当 $n$ 较大时,有 $y_{0}$ 的近似预测区间:95\%的预测区间为 $\left(\hat{y}_{0}-2 s, \hat{y}_{0}+2 s\right) , 98 \%$ 的 预测区间为 $\left(\hat{y}_{0}-3 s, \hat{y}_{0}+3 s\right)$.
参考文献